查看原文
其他

广义线性模型到底是个什么鬼?| 协和八

田菊 协和八 2022-06-07

❉说人话的统计学❉

从逻辑回归模型开始,我们连续讲了好多集有些相似又特点各异的几种统计模型。它们有个统一的旗号,叫做「广义线性模型」(generalized linear model)。 许多在大学里学过一点统计的读者,可能对广义线性模型还是会感到比较陌生。为什么这些模型能被归为一个大类?它们的共同点在哪里?今天我们就和大家一块再来系统地认识一下,广义线性模型到底是何方神圣。

在耐着性子把这篇文章读完之前,大家肯定会想,为什么要学习广义线性模型呢?毕竟光是理解线性模型的各种用法就已经够头疼的了,再加个广义更绕不清楚了。

普通线性模型对数据有着诸多限制,真实数据并不总能满足。而广义线性模型正是克服了很多普通线性模型的限制。在笔者的心里,广义模型能解决的问题种类比普通线性模型多很多,用图来表示,大概就是这样的:

图一:定性对比广义线性模型和普通线性模型的能解决的问题多少

我们前面通过讨论逻辑回归、定序回归以及泊松回归模型,已经带着读者们在广义线性模型的世界里面转了一大圈。今天,我们将要回到广义线性模型的本质,从广义线性模型的三个要素——线性预测、随机性和联系函数入手,在理论层面系统深入地了解广义线性模型。

各路线性模型的共同点:线性预测


不管是普通线性模型,还是广义线性模型,既然打着线性模型旗号,总该是有个原因的吧?这里的「线性」指的是多个自变量的「线性组合」对模型预测产生贡献,也叫做线性预测,它具有类似于下面的形式:

这个形式读者们已经非常熟悉了,因为之前讲的所有模型使用的都是线性预测。

统计模型中的β0、β1、β2等是模型的参数,如果把模型看成是一个音箱,这些参数就像看是音箱上一个个控制声音的旋钮。为啥音箱得要怎么多旋钮呢?因为虽然拧每一个旋钮达到的效果不同,可能β0管的是低音炮部分,β1管的是中音区,β2管的是高音区,模型里面需要这么多参数也是为了控制各种自变量对因变量的影响的。

为什么各种常用的模型都选择线性预测呢?当我们调节某一个旋钮的时候,我们当然希望声音的效果与旋钮拧了多少成正比,如果拧了一圈声音跟蚊子叫一样,而拧了两圈声音突然震耳欲聋,这样的音箱用起来就得经过反反复复地调节才能找到最佳音量,非常的不方便。统计模型的在寻找最优参数的时候做得就是调节音量这件事,使用线性预测使得β0、β1、β2这些参数改变的值与预测的结果的改变值成正比,这样才能有效地找到最佳参数。

随机性— 统计模型的灵魂


我们之所以会建立统计模型,是想研究自变量(模型的输入)与因变量(模型的输出)之间的定量关系。通过模型计算出来的自变量的预测值因变量的测量值越接近,就说明模型越准确。

虽然在建立模型时,我们希望统计模型能准确地抓住自变量与因变量之间的关系,但是当因变量能够100%被自变量决定时,这时候反而没有统计模型什么事了。典型的例子是中学时学习的物理定律,我们都知道,物体的加速度与它受的合力大小成正比,也就是说给定物体的质量和受力大小,加速度是一个固定的值,如果你答题的时候写,有一定的概率是a,也有一定的概率是b,物理老师肯定会气得晕过去。

统计模型的威力就在于帮助我们从混合着噪音的数据中找出规律。假设这个世界还没有人知道物体受的合力大小与加速度成正比,为了验证这一假说, 你仔细测了小滑块 在不同受力条件下的加速度,但由于手抖眼花尺子烂等等理由,哪怕是同样的受力,多次测量得到的加速度也会不一样,具有一定的随机性。也就是说,由于测量误差的存在,测量到的加速度(因变量y)与物体的受力大小(自变量x)之间不是严格的正比关系。

统计模型是怎样从具有随机性的数据中找到自变量和因变量之间的关系的呢?原因在于是随机误差也是有规律的。在测量不存在系统性的偏差的情况下,测量到的加速度会以理论值为平均值呈正态分布,详情可回顾《正态分布到底是怎么来的?| 协和八》。抓住这一统计规律,统计模型就能帮我们可以透过随机性看到自变量与因变量之间的本质联系,找出加速度与受力大小的关系。

如果不对自变量的随机性加以限制,再好的统计模型也无可奈何。试想一下,假如测量到的加速度值是不认真做实验的某个同学随手编的数值,那就不能保证它的平均值与实际值接近,自然也就无法正确地计算出加速度与受力大小的关系。

虽然在加速度的例子里面,因变量y的随机性来源于测量误差,但是实际应用中,y的随机性远不止测量误差,也有可能是影响y值变化的一些变量没有包含在模型中。比如一个公司的薪水由工龄,工作岗位和每月工时三个因素决定,但是在用模型预测薪水的时候,只用了工龄和工作岗位两个因素,这时模型就会把由工时不同导致的薪水不同看做是随机误差。

其实,统计模型并不在意y的随机性是由什么产生的:统计模型把因变量y中不能被模型解释的变化都算在误差项里面,并且通过对误差作出合理的假设,帮助我们找到自变量与因变量之间内在的关系。如何对随机性作出合理的假设,得根据具体情况具体分析,这也就演化出了各种各样的统计模型。

各路统计模型如何对付随机性


在统计模型中,当自变量取特定值,因变量y的随机性由y的概率分布来决定。无论是普通线性模型还是广义线性模型,预测的都是自变量x取特定值时因变量y的平均值。因变量y的实际取值与其平均值之差被称为误差项,而误差的分布很大程度上决定了使用什么模型。我们下面就来回顾一下在不同的模型里面误差项得满足什么样的分布。

普通线性模型的基本假设之一是误差符合方差固定的正态分布(高斯分布)。只有一个因变量的普通线性模型具有下面的形式:

模型的输出β01*x预测的是y的平均值,而误差项ε描述了y的随机性,普通线性模型中的方差不随自变量x取值的变化而变化。想深入回顾普通线性回归模型的读者,可以戳《如果只能学习一种统计方法,我选择线性回归 | 协和八》。

当误差项ε不再满足正太分布,或者误差项的方差会随着x的变化而变化的时候,普通线性模型就不够用了。由于正太分布描述的是一个连续变量的分布, 当因变量y是类别变量或是计数变量这样的非连续变量时 ,显然误差项就不能满足普通线性模型关于误差得是正态分布的要求,这时候就需要广义线性模型来救场了。

咱们先从最常用的逻辑回归模型说起。逻辑回归模型预测的是因变量y=1的概率P(y=1),它具有下面的形式:


对逻辑回归记不太清或者不熟悉的读者可以先不用纠结等式左边复杂的形式,我们一会儿再说。 与普通线性回归不同,逻辑回归的模型形式似乎并不能直接体现出y的误差项,毕竟等式的右边没有一个。 那么y的随机性是如何在逻辑回归中体现出来的?

在知道P(y=1)的情况下,y有可能取0也有可能取1,这是y随机性的来源。有趣的是,当我们用概率分布来描述y的随机性时,我们会发现,这不就是P(y=1)吗?由于y只能取两个值,知道取1的概率,自然就确定了y的概率分布,也就是说,y的随机性恰好被y的平均值刻画了,这与普通线性回归完全不一样。在普通线性回归里面,我们强调了,当y的预测值改变时,y实际值的方差是不变的,而在逻辑回归模型里面,模型的预测值同时也决定了方差。

下面再看看针对因变量是整数变量情形的泊松回归,泊松回归具有下面的形式

那泊松回归是如何处理y的随机性的呢?  泊松回归模型认为给定自变量的取值,因变量y满足泊松分布,模型的输出eβ0+β1*x1预测的是y的平均值,由于泊松分布只有一个参数,知道了分布的平均值整个分布也就确定了,于是泊松分布中y的误差的分布也就由y的平均值决定了,这一点倒是和逻辑回归模型异曲同工。

对比普通线性模型,逻辑回归模型,以及泊松回归模型,我们可以发现这几个模型除了等式左边形式不同,当因变量取特定值时,这些模型所假设的y的随机分布形式也不一样,如下图:

图二:普通线性模型,逻辑回归模型,以及泊松回归模型的对比。图中红色虚线代表模型预测的因变量y的平均值,图中的点代表了实际数据值,泊松回归模型中的灰色细线代表了特定自变量取值下因变量y的分布。

广义线性模型绕不开的联系函数(link function)


说完了随机性,下面再来看看广义线性模型的最后一个要素:联系函数。联系函数是啥?它是一个关于因变量y的函数,它把前面说到的线性预测的结果与因变量y的值之间建立一座桥梁。在学习统计的人看来,它就是广义线性模型中那个最匪夷所思最麻烦的一项:

它是逻辑回归中的


它是定序回归中的

它是泊松回归中的

在我们最熟悉的普通线性回归中,它就是y本身,是最朴实的联系函数。从这个角度,普通线性模型也被包含在里广义线性模型的框架底下,只是使用的联系函数以及对于y的随机性假设与其它广义线性模型不同。

联系函数为什么会在各个模型中具有不同的形式?首先,是为了把y的取值范围变换成负无穷到正无穷,这样就与模型中等式右边的线性预测项的取值范围一致了。当然,对于任意类型的因变量y,符合上面这个条件的变换都可以有无数个,那为什么我们会取上面这些特定的形式呢?  在理论层面上,当y是二项分布时,使用逻辑函数作为联系函数,能够使得模型有一些有效的解法;当y是泊松分布的情况下,使用对数函数作为联系函数,也有同样的效果。在实际应用中,上面提到的联系函数形式也常常能有效地拟合数据,这些原因综合导致了它们是最常用的联系函数形式。

上面罗列的理由只能说明这些常见的联系函数使用起来比较方便,但并非是说它们是唯一合法的联系函数。在以后读者们在接触到更多的广义线性模型的时候,看到新的联系函数不要被吓到,虽然形式可能很复杂,但是功能不外乎是让y的取值范围与预测值范围一致,以及让模型比较好地拟合当下的数据。

一个实用的广义线性模型总结


最后,我们用一张表格来总结各种不同的线性模型。在表中,我们把普通线性模型看做是广义线性模型的一个特例。


图三:常用线性模型小结

一个吃货的线性模型总结

最后,作为一个吃货,竟然觉得线性模型与火锅有一种神似,在这里和大家分享一下。总有一款线性模型适合你的数据,就像总有一种火锅能打动你。数据就像是火锅的食材,而选择哪款线性模型就像是选择汤底。我们都知道,汤底得按照食材的特性选择,才能释放出食材的全部美味。

对于新鲜又质量上层的肉片,清淡一点的汤底能更好得带出食材的香味,就像当因变量属于正常正态分布的数据时,选用普通线性模型就能得到良好的效果;对于本身味道比较重的食材,比如毛肚百叶等,经过麻辣的汤底的洗涤再放到嘴里简直爽到飞起,就像当因变量是二元变量或计数变量时,用逻辑回归模型或者泊松回归模型才能较好地拟合数据。

吃火锅时汤底是很关键,但蘸料的妙用也会锦上添花,极大地提高食物的美味程度。联系函数之于广义线性模型,就如蘸料之于火锅。蘸料一般选择基本款就可以了,就像根据因变量y的分布,联系函数的选择也有一些万能基本款,遇到特殊问题的时候,也可以灵活变通,选择使用口味更适合的联系函数。

作者田菊

编辑:鹅不食草


* 点击下方标题,或回复关键词「说人话的统计学」可随时查阅本系列任意文章!


干货

第 1 章  高屋建瓴看统计

你真的懂p值吗?

做统计,多少数据才算够?(上)

做统计,多少数据才算够?(下)

提升统计功效,让评审心服口服!

你的科研成果都是真的吗?

见识数据分析的「独孤九剑」

贝叶斯 vs 频率派:武功到底哪家强?


第 2 章  算术平均数与正态分布

数据到手了,第一件事先干啥?

算术平均数:简单背后有乾坤

正态分布到底是怎么来的?


第 3 章  t 检验:两组平均数的比较

想玩转 t 检验?你得从这一篇看起

就是要实用!t 检验的七十二变

不是正态分布,t 检验还能用吗?

只有 15 个标本,也能指望 t 检验吗?

样本分布不正态?数据变换来救场!

数据变换的万能钥匙:Box-Cox 变换

t 检验用不了?别慌,还有神奇的非参数检验

只讲 p 值,不讲效应大小,都是耍流氓!

找出 t 检验的效应大小,对耍流氓 say no!

用置信区间,就是这么(不)自信!

如何确定 t 检验的置信区间

优雅秀出你的 t 检验,提升 Paper 逼格!

要做 t 检验,这两口毒奶可喝不得!


第 4 章  方差分析(ANOVA):多组平均数的比较

要比较三组数据,t 检验还能用吗?

ANOVA 在手,多组比较不犯愁

ANOVA 的基本招式你掌握了吗?

ANOVA 做出了显著性?事儿还没完呢!

听说,成对t检验还有 ANOVA 进阶版?

重复测量 ANOVA:你要知道的事儿都在这里啦

没听说过多因素 ANOVA ?那你就可就 OUT 了!

多因素 ANOVA=好几个单因素 ANOVA?可没这么简单!

两个因素相互影响,ANOVA 结果该如何判读?

ANOVA 还能搞三四五因素?等等,我头有点儿晕

要做 ANOVA,样本量多大才够用


第 5 章  线性回归:统计建模初步

车模航模你玩过,统计学模型你会玩吗?

如果只能学习一种统计方法,我选择线性回归

回归线三千,我只取这一条

三千回归线里选中了你,你靠谱吗?

自变量不止一个,线性回归该怎么做?

找出「交互效应」,让线性模型更万能

天啦噜!没考虑到混杂因素,后果会这么严重?

回归系数不显著?也许是打开方式不对!

评价线性模型,R 平方是个好裁判吗?

如果R平方是砒霜,本文教你三种解药!

线性模型生病了,你懂得怎样诊断吗?

「脱离群众」的数据点,是「春风化雨」还是「秋风扫落叶」


第 6 章  广义线性模型:统计建模进阶

你在 或者不在 需要逻辑回归来算

逻辑回归的袅娜曲线,你是否会过目难忘?

逻辑回归的统计检验,原来招数辣么多?

线性回归能玩多变量,逻辑回归当然也能! 

喂,你的逻辑回归模型该做个体检啦

逻辑回归能摆平二分类因变量,那……不止二分类呢?

让人眼花缭乱的多项逻辑回归,原来是这么用的

只问方向,无问远近,定序回归的执念你懂吗?

包教包会:定序回归实战

「数」风流人物,还靠泊松回归


自检

妈妈说答对的童鞋才能中奖

统计学的十个误区,你答对了吗?


番外篇

说人话的统计学:一份迟来的邀请

作者简介

张之昊

2010 年本科毕业于清华大学生命科学学院,获理学学士学位。2016 年 5 月在耶鲁大学跨院系神经科学项目获得哲学博士学位。在耶鲁期间,他利用功能核磁共振成像(fMRI)技术与计算建模研究人类经济决策的脑科学基础及其与肥胖症的联系,曾以第一作者身份在 Nature Communications, Current Biology 等顶尖学术杂志上发表多篇论著,并受到 BBC 新闻、CBC、洛杉矶时报、果壳网等知名媒体的关注和报道。他还曾任耶鲁大学 StatLab 数据咨询师(Data Consultant),为耶鲁师生提供实验设计、数据分析及统计学软件的咨询服务。2016 年 8 月至今在伯克利加州大学(UC Berkeley)哈斯商学院市场营销系担任博士后研究学者(Postdoctoral Scholar),致力于运用神经科学、经济学模型、自然语言处理及大数据方法研究消费者行为与决策。

作者简介

田菊

2010 年本科毕业于清华大学工程物理系,获工学学士学位。2016 年 5 月在哈佛大学医学院神经科学项目获得哲学博士学位。她在攻读博士期间研究基于奖赏的学习行为的神经回路及其计算模型,曾以第一作者或共同作者身份在 Nature,Cell,Neuron,Nature Neuroscience,Trends in Cognitive Science 等顶尖学术杂志上发表多篇论著。2016 年 6 月至今在 Facebook 担任数据科学家( Data Scientist ),运用大数据和人工智能解决网络诈骗、虚假新闻和不良广告等信息安全相关问题。



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存